智能论文笔记

Fast building segmentation from satellite imagery and few local labels

Caleb Robinson , Anthony Ortiz , Hogeun Park , Nancy Lozano Gracia , Jon Kher Kaw , Tina Sederholm , Rahul Dodhia , Juan M. Lavista Ferres

分类：计算机视觉 | 机器学习

2022-06-10

用于卫星图像分析的计算机视觉算法的创新可以使我们能够在行星层面探索全球挑战，例如城市化和土地利用变化。但是，当试图复制将这些分析推向新领域的模型时，尤其是在发展中国家的模型时，域转移问题是一个普遍的情况。如果模型是通过一个位置的图像和标签训练的，则通常不会很好地概括到图像和数据分布不同的新位置。在这项工作中，我们考虑了我们有一个大型卫星图像场景的设置，我们希望在该场景上解决一个应用问题 - 构建足迹细分。在这里，我们不一定需要担心创建一个概括过我们场景边界的模型，而是可以训练本地模型。我们表明，使用非常高分辨率（0.5m/px）卫星图像解决建筑细分问题需要的标签很少。我们只有527个稀疏多边形注释（相当于1500 x 1500名被标记的像素）训练的最佳型号，召回了0.87的持有足迹，R2的r2为0.93视窗。我们将模型应用于约旦安曼（Amman）的高分辨率图像中，在一项有关城市变化检测的案例研究中。

translated by 谷歌翻译

A Topic Modeling Approach to Classifying Open Street Map Health Clinics and Schools in Sub-Saharan Africa

Joshua W. Anderson , Luis Iñaki Alberro Encina , Tina George Karippacheril , Jonathan Hersh , Cadence Stringer

分类：机器学习

2022-12-22

Data deprivation, or the lack of easily available and actionable information on the well-being of individuals, is a significant challenge for the developing world and an impediment to the design and operationalization of policies intended to alleviate poverty. In this paper we explore the suitability of data derived from OpenStreetMap to proxy for the location of two crucial public services: schools and health clinics. Thanks to the efforts of thousands of digital humanitarians, online mapping repositories such as OpenStreetMap contain millions of records on buildings and other structures, delineating both their location and often their use. Unfortunately much of this data is locked in complex, unstructured text rendering it seemingly unsuitable for classifying schools or clinics. We apply a scalable, unsupervised learning method to unlabeled OpenStreetMap building data to extract the location of schools and health clinics in ten countries in Africa. We find the topic modeling approach greatly improves performance versus reliance on structured keys alone. We validate our results by comparing schools and clinics identified by our OSM method versus those identified by the WHO, and describe OSM coverage gaps more broadly.

translated by 谷歌翻译

Towards Human-centered Explainable AI: User Studies for Model Explanations

Yao Rong , Tobias Leemann , Thai-trang Nguyen , Lisa Fiedler , Peizhu Qian , Vaibhav Unhelkar , Tina Seidel , Gjergji Kasneci , Enkelejda Kasneci

分类：人工智能

2022-10-20

Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 85 core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, fairness, usability, and human-AI team performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.

translated by 谷歌翻译

Natural Language Processing Methods to Identify Oncology Patients at High Risk for Acute Care with Clinical Notes

Claudio Fanconi , Marieke van Buchem , Tina Hernandez-Boussard

分类：自然语言处理 | 机器学习

2022-09-28

临床笔记是健康记录的重要组成部分。本文评估了如何使用自然语言处理（NLP）来确定肿瘤患者急性护理使用（ACU）的风险，一旦化疗开始。使用结构化健康数据（SHD）的风险预测现在是标准的，但是使用自由文本格式的预测很复杂。本文探讨了自由文本注释用于预测ACU而不是SHD的使用。将深度学习模型与手动设计的语言功能进行了比较。结果表明，SHD模型最少胜过NLP模型。具有SHD的L1型逻辑回归的C统计量为0.748（95％-CI：0.735，0.762），而具有语言功能的相同模型达到0.730（95％-CI：0.717，0.745）和基于变形金属的模型模型达到了0.702（95％-CI：0.688，0.717）。本文展示了如何在临床应用中使用语言模型，并强调了不同患者群体的风险偏见如何不同，即使仅使用自由文本数据。

translated by 谷歌翻译

Imbalance Trouble: Revisiting Neural-Collapse Geometry

Christos Thrampoulidis , Ganesh R. Kini , Vala Vakilian , Tina Behnia

分类：机器学习 | (统计)机器学习

2022-08-10

神经塌陷是指表征类嵌入和分类器重量的几何形状的显着结构特性，当经过零训练误差以外的训练时，深网被发现。但是，这种表征仅适用于平衡数据。因此，我们在这里询问是否可以使阶级失衡不变。为此，我们采用了不受限制的功能模型（UFM），这是一种用于研究神经塌陷的最新理论模型，并引入了单纯形编码标签的插值（SELI）作为神经崩溃现象的不变特征。具体而言，我们证明了UFM的跨凝结损失和消失的正则化，无论阶级失衡如何，嵌入和分类器总是插入单纯形编码的标签矩阵，并且其单个几何形状都由同一标签矩阵矩阵矩阵的SVD因子确定。然后，我们对合成和真实数据集进行了广泛的实验，这些实验确认了与SELI几何形状的收敛。但是，我们警告说，融合会随着不平衡的增加而恶化。从理论上讲，我们通过表明与平衡的情况不同，当存在少数民族时，山脊规范化在调整几何形状中起着至关重要的作用。这定义了新的问题，并激发了对阶级失衡对一阶方法融合其渐近优先解决方案的速率的影响的进一步研究。

translated by 谷歌翻译

On how to avoid exacerbating spurious correlations when models are overparameterized

Tina Behnia , Ke Wang , Christos Thrampoulidis

分类：机器学习

2022-06-25

过度参数化模型即使与传统的减轻失衡技术结合使用，在存在数据失衡的情况下也无法很好地概括。本文着重于分类数据集，其中一小部分人口（少数）可能包含与类标签相关的功能。对于跨凝结损失修饰和代表性高斯混合模型的参数家族，我们在最严重的组误差上得出了非反应泛化的边界，该误差揭示了不同的超参数的作用。具体而言，我们证明，在适当调整后，最近提出的VS-Loss学会了一个模型，即使伪造的特征很强，也对少数群体也是公平的。另一方面，替代性启发式方法，例如加权CE和LA-loss，可能会急剧失败。与以前的作品相比，我们的界限适用于更多的通用模型，它们是非吸血管的，即使在极端不平衡的情况下，它们也适用。

translated by 谷歌翻译

A generalised form for a homogeneous population of structures using an overlapping mixture of Gaussian processes

Tina A. Dardeno , Lawrence A. Bull , Nikolaos Dervilis , Keith Worden

分类：机器学习 | (统计)机器学习

2022-06-23

固有频率的降低通常用作结构健康监测（SHM）目的的损坏指标。但是，操作和环境条件的波动，边界条件的变化以及名义相同结构之间的微小差异也会影响刚度，从而产生模仿或掩盖损坏的频率变化。这种可变性限制了SHM技术的实际实施和概括。这项工作的目的是研究正常变异的效果，并确定解释产生不确定性的方法。这项工作考虑了从四个健康的全尺度复合直升机叶片收集的振动数据。叶片名义上是相同的，但叶片是不同的，并且叶片之间的材料特性和几何形状略有差异，导致频率响应函数的显着差异，这是整个输入空间中四个独立的轨迹。在本文中，使用高斯工艺（OMGP）的重叠混合物来生成标签并量化直升机叶片的正常条件频率响应数据的不确定性。使用基于人群的方法，OMGP模型提供了称为形式的通用表示形式，以表征叶片的正常状况。然后将其他模拟数据与该形式进行比较，并使用边缘样式新颖性指数评估损伤。

translated by 谷歌翻译

Automation of Radiation Treatment Planning for Rectal Cancer

Kai Huang , Prajnan Das , Adenike M. Olanrewaju , Carlos Cardenas , David Fuentes , Lifei Zhang , Donald Hancock , Hannah Simonds , Dong Joo Rhee , Sam Beddar

分类：人工智能

2022-04-26

为了开发直肠癌的自动化工作流程，三维形成式放射治疗计划，结合了深度学习（DL）孔径预测和前向规划算法。我们设计了一种算法来自动化临床工作流程，以使用现场场地进行计划。对555名患者进行了训练，验证和测试DL模型，以自动生成一级和增强场的光圈形状。网络输入是数字重建的X射线照相，总肿瘤体积（GTV）和Nodal GTV。一名医师以5分制（> 3个可以接受）为20名患者的每个孔径为每个孔径评分。然后开发了一种计划算法，以使用楔形和子场的组合创建均匀剂量。该算法迭代识别热点卷，创建子字段并在没有用户干预的情况下优化光束重量。使用具有不同设置的临床光圈对20例患者进行了测试，并由医生评分结果计划（4例计划/患者）。端到端的工作流程通过医生对39名使用DL生成的孔径和计划算法进行了测试和评分。预测的孔的骰子得分分别为0.95、0.94和0.90，分别为侧面，外侧和升压场。 100％，95％和87.5％的后侧，外侧和升压孔分别为临床上可接受。在85％和50％的患者中，楔形计划和非界定计划在临床上是可以接受的。最终计划的热点剂量百分比从121％（$ \ $ 14％）降低到处方剂量的109％（$ \ pm $ 5％）。自动生成的光圈和优化现场计划的综合端到端工作流程为38/39（97％）的患者提供了可接受的计划。我们已经成功地自动化了临床工作流程，以为我们的机构生成放射疗法计划。

translated by 谷歌翻译

Modelling variability in vibration-based PBSHM via a generalised population form

Tina A Dardeno , Lawrence A Bull , Robin S Mills , Nikolaos Dervilis , Keith Worden

分类：机器学习 | (统计)机器学习

2022-03-14

在过去的三十年中，结构性健康监测（SHM）一直是一个活跃的研究领域，并且在此期间积累了许多关键进展，如文献所示。但是，由于损害状态数据，操作和环境波动，可重复性问题以及边界条件的变化，SHM仍然面临挑战。这些问题在被捕获的功能中是不一致的，并且可能会对实际实施产生巨大影响，但更重要的是对技术的概括。基于人群的SHM旨在通过使用从相似结构组收集的数据对缺失信息进行建模和传输信息来解决其中的一些问题。在这项工作中，从四个健康的，名义上相同的全尺度复合直升机叶片收集了振动数据。制造差异（例如，几何形状和/或材料属性的略有差异），在其结构动力学上显示为可变性，这对于基于振动数据的机器学习而对SHM来说可能非常有问题。这项工作旨在通过使用高斯过程的混合物来定义叶片的频率响应函数的通用模型来解决此变异性。

translated by 谷歌翻译

AI-Bind: Improving Binding Predictions for Novel Protein Targets and Ligands

Ayan Chatterjee , Omair Shafi Ahmed , Robin Walters , Zohair Shafi , Deisy Gysi , Rose Yu , Tina Eliassi-Rad , Albert-László Barabási , Giulia Menichetti

分类：机器学习

2021-12-25

鉴定新型药物靶标相互作用（DTI）是药物发现中的关键和速率限制步骤。虽然已经提出了深入学习模型来加速识别过程，但我们表明最先进的模型无法概括到新颖（即，从未见过的）结构上。我们首先揭示负责此缺点的机制，展示模型如何依赖于利用蛋白质 - 配体二分网络拓扑的捷径，而不是学习节点特征。然后，我们介绍AI-BIND，这是一个与无监督的预训练的基于网络的采样策略相结合的管道，使我们能够限制注释不平衡并改善新型蛋白质和配体的结合预测。我们通过预测具有结合亲和力的药物和天然化合物对SARS-COV-2病毒蛋白和相关的人蛋白质来说明Ai-reat的值。我们还通过自动扩展模拟和与最近的实验证据进行比较来验证这些预测。总体而言，AI-Bind提供了一种强大的高通量方法来识别药物目标组合，具有成为药物发现中强大工具的可能性。

translated by 谷歌翻译